Out-Of-Distribution (OOD) detection has received broad attention over the years, aiming to ensure the reliability and safety of deep neural networks (DNNs) in real-world scenarios by rejecting incorrect predictions. However, we notice a discrepancy between the conventional evaluation vs. the essential purpose of OOD detection. On the one hand, the conventional evaluation exclusively considers risks caused by label-space distribution shifts while ignoring the risks from input-space distribution shifts. On the other hand, the conventional evaluation reward detection methods for not rejecting the misclassified image in the validation dataset. However, the misclassified image can also cause risks and should be rejected. We appeal to rethink OOD detection from a human-centric perspective, that a proper detection method should reject the case that the deep model's prediction mismatches the human expectations and adopt the case that the deep model's prediction meets the human expectations. We propose a human-centric evaluation and conduct extensive experiments on 45 classifiers and 8 test datasets. We find that the simple baseline OOD detection method can achieve comparable and even better performance than the recently proposed methods, which means that the development in OOD detection in the past years may be overestimated. Additionally, our experiments demonstrate that model selection is non-trivial for OOD detection and should be considered as an integral of the proposed method, which differs from the claim in existing works that proposed methods are universal across different models.
translated by 谷歌翻译
Assembly planning is the core of automating product assembly, maintenance, and recycling for modern industrial manufacturing. Despite its importance and long history of research, planning for mechanical assemblies when given the final assembled state remains a challenging problem. This is due to the complexity of dealing with arbitrary 3D shapes and the highly constrained motion required for real-world assemblies. In this work, we propose a novel method to efficiently plan physically plausible assembly motion and sequences for real-world assemblies. Our method leverages the assembly-by-disassembly principle and physics-based simulation to efficiently explore a reduced search space. To evaluate the generality of our method, we define a large-scale dataset consisting of thousands of physically valid industrial assemblies with a variety of assembly motions required. Our experiments on this new benchmark demonstrate we achieve a state-of-the-art success rate and the highest computational efficiency compared to other baseline algorithms. Our method also generalizes to rotational assemblies (e.g., screws and puzzles) and solves 80-part assemblies within several minutes.
translated by 谷歌翻译
在智能制造中,机器翻译工程图的质量将直接影响其制造精度。目前,大多数工作都是手动翻译的,大大降低了生产效率。本文提出了一种基于环状生成对抗网络(Cyclegan)的焊接结构工程图的自动翻译方法。不成对转移学习的Cyclegan网络模型用于学习真实焊接工程图的功能映射,以实现工程图的自动翻译。 U-NET和PatchGAN分别是生成器和鉴别器的主要网络。基于删除身份映射函数,提出了一个高维稀疏网络,以取代传统的密集网络以改善噪声稳健性。增加残留块隐藏层以增加生成图的分辨率。改进和微调的网络模型经过实验验证,计算实际数据和生成数据之间的差距。它符合焊接工程精度标准,并解决了焊接制造过程中低绘图识别效率的主要问题。结果显示。在我们的模型训练之后,焊接工程图的PSNR,SSIM和MSE分别达到44.89%,99.58%和2.11,它们在训练速度和准确性方面都优于传统网络。
translated by 谷歌翻译
重型设备制造将特定的轮廓分解为图纸,并切割钣金以缩放焊接。当前,手动实现了焊接图轮廓的大多数分割和提取。它的效率大大降低了。因此,我们提出了一种基于U-NET的轮廓分割和用于焊接工程图的提取方法。工程图纸所需的零件的轮廓可以自动划分和清空,从而大大提高了制造效率。 U-NET包括一个编码器,该编码器通过语义差异和编码器和解码器之间的空间位置特征信息实现端到端映射。尽管U-NET擅长于细分医学图像,但我们在焊接结构图数据集上进行的广泛实验表明,经典的U-NET体系结构在细分焊接工程图纸方面缺乏。因此,我们设计了一种新型的通道空间序列注意模块(CSSAM),并在经典的U-NET上进行改进。同时,提出了垂直最大池和平均水平池。通过两个相等的卷积将池操作传递到CSSAM模块中。汇总之前的输出和功能通过语义聚类融合在一起,它取代了传统的跳跃结构,并有效地缩小了编码器和解码器之间的语义差距,从而改善了焊接工程图的分割性能。我们使用VGG16作为骨干网络。与经典的U-NET相比,我们的网络在工程绘图数据集细分方面具有良好的性能。
translated by 谷歌翻译
风险评分系统已被广泛地部署在许多应用程序中,这些应用程序根据用户的行为序列将风险分数分配给了。尽管许多具有复杂设计的深度学习方法已经取得了令人鼓舞的结果,但由于公平,解释性和合规性考虑,黑框的性质阻碍了他们的应用。在这些敏感情况下,基于规则的系统被认为是可靠的。但是,构建规则系统是劳动密集型的。专家需要从用户行为序列,基于统计数据的设计规则中找到信息统计信息,并为每个规则分配权重。在本文中,我们弥合了有效但黑色框模型与透明规则模型之间的差距。我们提出了一种两阶段的方法Rudi,该方法将黑框教师模型的知识提炼成基于规则的学生模型。我们设计了一种基于蒙特卡洛树搜索的统计生成方法,该方法可以在第一阶段提供一组信息统计信息。然后,通过模仿教师模型的输出,将统计数据与我们提出的神经逻辑网络组成逻辑规则。我们在三个现实世界公共数据集和一个工业数据集上评估了Rudi,以证明其有效性。
translated by 谷歌翻译
无线联邦学习(AIRFL)允许设备并行训练学习模型,并使用无线计算同步其本地模型。由于本地模型的汇总汇总,AIRFL的完整性很容易受到伤害。本文提出了一个新颖的框架,以平衡AIRFL的准确性和完整性,其中多Anti-Antenna设备和基站(BS)通过可重构智能表面(RIS)共同优化。关键贡献包括一个联合考虑AIRFL的模型准确性和完整性的新的和非平凡的问题,以及将问题转化为可牵引的子问题的新框架。在完美的通道状态信息(CSI)下,新框架将汇总模型的失真最小化,并通过优化设备的发射光束器,BS的接收光束器和RIS配置,以交替的方式保留本地模型的可恢复性。在不完美的CSI下,新框架为光束形成器和RIS配置提供了强大的设计,以打击不可忽略的通道估计错误。正如实验性的佐证,新型框架可以在完美的CSI下保持局部模型可恢复性,并在不完美的CSI下的接收天线数量小或中等时提高精度,并提高精度。
translated by 谷歌翻译
室内多机器人通信面临两个关键挑战:一个是由堵塞(例如墙壁)引起的严重信号强度降解,另一个是由机器人移动性引起的动态环境。为了解决这些问题,我们考虑可重构的智能表面(RIS)来克服信号阻塞并协助多个机器人之间的轨迹设计。同时,采用了非正交的多重访问(NOMA)来应对频谱的稀缺并增强机器人的连通性。考虑到机器人的电池能力有限,我们旨在通过共同优化接入点(AP)的发射功率,RIS的相移和机器人的轨迹来最大化能源效率。开发了一种新颖的联邦深入强化学习(F-DRL)方法,以通过一个动态的长期目标解决这个具有挑战性的问题。通过每个机器人规划其路径和下行链路功率,AP只需要确定RIS的相移,这可以大大保存由于训练维度降低而导致的计算开销。仿真结果揭示了以下发现:i)与集中式DRL相比,提出的F-DRL可以减少至少86%的收敛时间; ii)设计的算法可以适应越来越多的机器人; iii)与传统的基于OMA的基准相比,NOMA增强方案可以实现更高的能源效率。
translated by 谷歌翻译
RGB-thermal显着对象检测(RGB-T SOD)旨在定位对齐可见的和热红外图像对的共同突出对象,并准确地分割所有属于这些对象的像素。由于对热图像的照明条件不敏感,它在诸如夜间和复杂背景之类的具有挑战性的场景中很有希望。因此,RGB-T SOD的关键问题是使两种方式的功能相互补充并互相调整,因为不可避免的是,由于极端光条件和诸如极端光条件和诸如极端光明条件和热跨界。在本文中,我们提出了一个针对RGB-T SOD的新型镜子互补变压器网络(MCNET)。具体而言,我们将基于变压器的特征提取模块引入RGB和热图像的有效提取分层特征。然后,通过基于注意力的特征相互作用和基于串行的多尺度扩张卷积(SDC)特征融合模块,提出的模型实现了低级特征的互补相互作用以及深度特征的语义融合。最后,基于镜子互补结构,即使是一种模态也可以准确地提取两种方式的显着区域也是无效的。为了证明在现实世界中具有挑战性的场景下提出的模型的鲁棒性,我们基于自动驾驶域中使用的大型公共语义分段RGB-T数据集建立了一种新颖的RGB-T SOD数据集VT723。基准和VT723数据集上的昂贵实验表明,所提出的方法优于最先进的方法,包括基于CNN的方法和基于变压器的方法。该代码和数据集将在稍后在https://github.com/jxr326/swinmcnet上发布。
translated by 谷歌翻译
短期内存(LSTM)和变压器是两个流行的神经结构用于自然语言处理任务。理论结果表明,两者都是图灵完成的,可以代表任何无论如何的语言(CFL)。在实践中,经常观察到变压器模型具有比LSTM更好的表示功率。但原因几乎没有明白。我们研究了LSTM和变压器之间的实际差异,并提出了基于潜空间分解模式的解释。为了实现这一目标,我们介绍了Oracle培训范式,这迫使LSTM和变压器的潜在表示的分解,并监督相应CFL的推动自动化(PDA)的转换。通过强制分解,我们表明LSTM和变压器在学习CFL中的性能上限是关闭:它们都可以模拟堆栈并与状态转换一起执行堆栈操作。然而,没有强制分解导致LSTM模型的故障捕获堆叠和堆叠操作,同时对变压器模型产生边缘影响。最后,我们将原型PDA的实验连接到真实的解析任务,以重新验证结论
translated by 谷歌翻译
Deep learning on graph structures has shown exciting results in various applications. However, few attentions have been paid to the robustness of such models, in contrast to numerous research work for image or text adversarial attack and defense. In this paper, we focus on the adversarial attacks that fool the model by modifying the combinatorial structure of data. We first propose a reinforcement learning based attack method that learns the generalizable attack policy, while only requiring prediction labels from the target classifier. Also, variants of genetic algorithms and gradient methods are presented in the scenario where prediction confidence or gradients are available. We use both synthetic and real-world data to show that, a family of Graph Neural Network models are vulnerable to these attacks, in both graph-level and node-level classification tasks. We also show such attacks can be used to diagnose the learned classifiers.
translated by 谷歌翻译